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SYSTEMS ET PROCEDE DE TRAiTEIUIENT DE DONNEES DESTINEES A ENRICHIR LES SYSTEMES D'AIDE 
A LA DECISION. 

Un systeme de traltement de donnees comprend: 

- un serveur contenant dans une ni6moire un jeu de don- 
nees individuelles organis^es sous forme d'au molns une 
variable k N dimensions, cheque donn^e indlviduelle conte- 
nant au moins une variable indlviduelle en association avec 
des valeurs pr^d^finies de param^tres selon les N dimen- 
sions, at 

- au molns un poste client communiquant avec le ser- 
veur via un espace de travaii associ^ au serveur. 

Le sen^eur place dans ledit espace de travail des don- 
nees constituees par des combinalsons pr^d^finies desdi- 
tes variables individuelles k partir d*un filtrage sur lesdits 
param^tres, r§alls6 selon au moins une dimension chorsie 
par un utilisateur panmi les N dimensions. 

Selon I'Inventlon, II est pr6vu k }*ext6rleur du serveur des 
moyens pour constituer temporairement des param^tres 
additionnels h partir d'un traitement d'analyse sur des com- 
binaisons choisles de variables plac^es dans i'espace de 
travail, et des moyens pour ^laborer dans ledit espace de 
travaii de nouvelles combinaisons desdites variables k partir 
d'un nouveau fiitrage mettant en jeu lesdits param^tnes ad- 
ditionnels. 
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I'administrateur qui, si la demande des different s utilisateurs est suffisamment 
coh6rente, va alors faire efFectuer les modifications n6cessaires dans le serveur. 

La pr6sente invention vise, a partir d'un entrepot de donn^es dont la 
structure est d6finie, et d'un systeme decisionnel dont les fonctions sont ^galement 
definies, k permettre d'offrir a I'utilisateur des visions additionnelles des donnees, 
sans qu'il soit n^cessaire de modifier Tenvironnement applicatif, le serveur de 
donnas ou les donnees elles-mSmes, et done d'en modifier la coherence et 
rint6grit6. 

Plus particuli^rement, la pr^sente invention vise a 6tendre par de nouveaux 
axes d'analyse une ou plusieurs variables metier etudi^es par un utilisateur, et ce de 
fagon dynamique et en temps r^el. 

L*invention propose i cet effet un systfime de trjutement de donnees, 
comprenant : 

- un serveur contenant dans une memoire un jeu de donnees individuelles 
organis^es sous forme d'au moins une variable a N dimensions, chaque donnte 
individuelle contenant au moins une variable individuelle en association avec des 
valeurs pr^definies de parametres selon les N dimensions, et 

- au moins un poste client communiquant avec le serveur via un espace de 
travail associ^ au serveur, 

le serveur etant apte i placer dans ledit espace de travail des donnees constitutes par 
des combinaisons prtd6fmies desdites variables individuelles 4 partir d'un filtrage 
sur lesdits parametres, r^is6 selon au moins une dimension choisie par un utilisateur 
parmi les N dimensions, 

systeme caracterise en ce qu'il comprend egalement, a rexttrieur du serveur, des 
moyens pour constituer temporairement des parametres additionnels a partir d'un 
traitement d'analyse sur des combinaisons choisies de variables plac6es dans 
r espace de travail, et des moyens pour elaborer dans ledit espace de travail de 
nouvelles combinaisons desdites variables a partir d'un nouveau filtrage mettant en 
jeu lesdits parametres additionnels. 

Des aspects preferes, mais non limitatifs, du systeme selon T invention sont 
les suivants : 
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les moyens pour constituer des param^tres additionnels comprennent 
moyens pour ^tablir des categories selon un processus de ct. 
combinaisons de variables lesdit. "tegonsation sur lesdites 

vanaojes, lesdits parametres additlonnH« , 
lesdites categories. aaaitionnels etant constitu^s par 

5 - les moyens pour constituer des parametres additionnels comnr. 

moyens pour .tablir des categories selon un processus d I 
—sons de variable, lesdits paran.et.s H^Z^ Z^Z^ 
~onsdepara™.ese.istants.pa.des.uel^^^ 

combinaisons. ^' ^^^'^^ nouvelles 

corneal .„ «i„ ^ JIT 11 r"""" 

^.tiiuees par des combmasons DredefimVc 
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- dans Tespace de travail, constituer temporairement des param^tres 
additionnels k partir d'un traitement d'analyse efFectue sur des combinaisons choisies 
desdites variables, et 

- dans i*espace de travail, ^laborer de nouvelles combinaisons desdites 
variables k partir d'un. nouveau filtrage mettant en jeu lesdits param^tres 
additionnels. 

Des aspects pr6f6r6s, mais non limitatifs, du proc6de de traitement selon 
rinvention sont les suivants : 

- ledit traitement d'analyse est un traitement de categorisation sur lesdites 
combinaisons de variables, lesdits parametres additionnels 6tant constitues par 
lesdites categories. 

- Icdit trdtement d*analyse comprend un processus de marquage, lesdits 
param&res additionnels etant constitues par des combinaisons de paramdtres 
existants a partir desquelles un filtrage sur les donntes du serveur est efFectu6. 

- Tetape d'^laboration de nouvelles combinaisons desdites variables 
comprend un pr6-calcul et un stockage desdites combinaisons dans Tespace de 
travail. 

- Tetape d'61aboration de nouvelles combinaisons desdites variables 
comprend un calcul dynamique desdites combinaisons a partir d'un filtrage sur les 
donnees du serveur mettant en jeu lesdits paramdtres additionnels. 

D'autres aspects, buts et avantages de la pr6sente invention apparaitront 
mieux k la lecture de la description d^aill^e suivante de formes de r&lisation 
pr6ferees de celle-ci, donn^e k titre d'exemple non limitatif et feite en reference aux 
dessins annexes, sur lesquels : 

la figure 1 montre les premieres lignes d'une base de donnees ou entrepdt de 
donnees utilisee k titre d*exemple non limitatif pour illustrer Tinvention, 

la figure 2 illustre un graphique pre-parametr6 pouvant etre engendre avec 
un syst^me decisionnel classique k partir de donnees du type de celles de la figure 1, 

la figure 3 illustre graphiquement des subdivisions selon une dimension 
existahte et selon une nouvelle dimension de la population de la base de donnees. 
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««»^^v« , ^ ^^^^ ^ ^ 

avec la pr&ente invention, et 

les figures 5a et 5b iUustrent respectivement an autre graphique pr^ 
e^endr. avec le syst..e d^isionne, classi.ue et un 1 ^ilt 
pouvant Stre obtenu avec la pr^^ente invention. * 

On va maintenant dW en r^f^ence aux dessins differentes fonnes de 
realisations possibles de Tinvention. 



^0 nStmctiirftrfApH^„»f^^ 



V-f(DI,D2. . .,DN) 
SOMME. VALEURMOYBNNE. MAXBdUH MMMUH etc.). 

g ^es en secteur, d^ement puis rtgion. U valeur de chaque 
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agregat donnera la SOMME des valeurs prises par la VARIABLE pour ses 
descendants dans la hierarchie. 

On peut realiser de cette mani^re T^quivalent d*un tableau crois6 
dynamique k N dimensions. 

On pourrait d6montrer que le nombre total de croisements entre les 
dimensions, et done le nombre total de fa9ons de voir une variable V, est egal a : 



oi^ 

P est le nombre de dimensions de Tentrepot de donnees et 

Np est le nombre moyen de modalit^s (c'est-a-dire de valeurs possibles) par 
dimension. 

2) Architecture d'un s ysteme d^cisionnel 

Les systSmes d6cisionnels classiques sont constituis de trois composants 
principaux : 

a) TentrepSt de donnees, qui f6ddre les donnees de I'entreprise, et qui offre un portail 
unique d'acces aux donnees au serveur de donnees (ici de type OLAP). 

b) le serveur de donnees OLAP lui-meme, qui organise et stocke les donnas sous la 
forme de tableaux croises dynamiques de N dimensions. 

c) enfin une s6rie de postes clients. 

Les donnees issues de T entrepot de donnees sont construites par agregation 
en fonction dMndicateurs ou variables « metier ». En regie generate, la donnee 
616mentaire qui d6crit un processus de vente pour un client, sa signaletique, etc., 
disparait au profit de donnees decrivant des groupes homogenes, utiles pour Tanalyse 
d&isionnelle. 

La base d6cisionneIle est conservee dans le serveur de donnees. Elle est 
accessible via des postes clients en environnement client/serveur classique ou via 
Internet/intranet. 



P*(P-l)*NpV2 



(1) 
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A ZT' ""-^ " " - appe,. « : 

5 d assurer |-.cc«„imul«n<depl„sl«ir»udlis«eii« "--Pennel 

10 Vpelauservair via I'espacede travail. ™q« un 

Afta d W« l,„.^, des do^ oo««,„« da™ re «rv«. de d„»te 
OLAP, une se.„o„ „■> droi. de lec»« s„r le, dories stoct^ca d.^^ 

«v«.r,™i,p„^e„„d™i.de,ec.ree,dWedana,.eapacedeJ^alL 

c««.. „. LorsdWd^.^ioM-e.paced..r.vai,e«d^-,...„trL 
15 donnees qu'ii cnuient. 

- c e,.^-d«e au „v.a. de ao„ e^a^ de .avai, - sa« ™.di«er ,e cor«e„„ ^uj, 
: IT - -P.. .o„ de . aeeo^^r 

Phis pr^cis^ment. soft line variable V telle que : 

V = f(Dl.D2....,DN) 
Soft F* une nouvelle dimension, tel que 

P*=g(V*) 

avec 

V* = fCDl.D2,...,DP)et 
(E>1. D2, DP) inclus dans (Dl, D2, .... DN) 
alors il est possible de constituer une variable V telle que 



20 
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V'=f(Dl,D2, ...,DN,F*) 

Avec V inclus dans V 

La dimension F* est construite par application d'une fonction « g » sur une 
autre agr6gat de variables. La dimension F* est une dimension hierarchique, comme 
on le verra en d6tail plus loin. 

Ces fonctions sont r^is^es directement dans I'espace de travail de la 
session, puis activees dans IMnterface de Tutilisateur. 

La variable V est alors visualisable : 

- Soit dans son contexte initial ; F* est alors agregd sur le noeud de tete de sa 
hierarchie (dans ce cas, V est 6gale k la variable initiate V). 

- Soit suivant les valeurs prises par F*, les valeurs F* 6tant utilisees pour 
filtrer la variable V. 

4) Decomposition des fonctionnalit^s 

Le procede est r6alis6 par les etapes suivantes : 

Etcpe I - Connexion, Extraction et Traitement 

- recuperation de I'identifiant de connexion de I'utilisateur et connexion k son espace 
de travail ; 

- analyse de Tespace de travail pour identifier la variable metier que Tutilisateur 
cherche a exploiter ; 

- extraction des donnees a analyser, k savoir des variables a discr6tiser, ou des 
donnees k analyser ; 

- traitements sur les donnees extraites. 



Etcg>e 2 - Mise a jour de I 'espace de travail 
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- construction de la dimension p* /i^ - , 

M^mrchiqu. ; """" "'"''^ ^ 

- crtatkm de I. vrt^fe v par to «,„jo„c,io„ de V avec F* 

0„ «te,a id <p,. d«„ I. ^ ^ „^ 

par phisieurs mdthodes : h ui w,i reaiisee 

d,me™,o„,,p,c««^^^^,^^^__^^_^^.^^^^^ 

^ 3 -Acttmuon dans lime^ MltsOew 
15 -««icliagedeto«»irt,l.Vd«»|-btoft«„a|is.,«^ 

25 

Le proc^d^ et le syst^me de rinvention permettent en particulier : 

- de transfoimer une vision particulidre d'une variable en „n. h- 

projeter sur la variable m^t,v dimension et de la 

^0 dimension peut TT:. ^'""^ ^^^^^^^ ^ 

P etre r6al.s^ par toute m^ode de discretisation telle que la methode 
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dite de Fisher (ou « Fisherisation », qui consiste a d^uper de fa^on optimaie d'une 
variable continue en N sous-ensembles) ; 

- de construire une dimension qui correspond a une typologie de donntes, typologie 
issue d'une analyse de donnees sur la base OLAP, ou sur I'entrepot de donntes 
5 associe au serveur OLAP, et d'en visualiser I'impact sur la variable courante. 

Les applications sont alors multiples. Toutes applications decisionnelles de 
type OLAP ou realisees sur des tableaux crois^s dynamiques sont extensibles par ce 
proc6de. 

10 

6) Exemples concrets 

Soit une base de donnees OLAP de 1000 donn6es, relative a la maintenance 
d'un certain materiel industriel et au cout de cette maintenance. 
1 5 Les premieres lignes de cette base de donn6es sont indiquees sur la figure 1 

des dessins. 

Dans cette application, Tobjectif du systeme decisionnel est de pouvoir 
etudier et optimiser la politique de maintenance et les coQts associes. 

20 a) Difinition des variables metiers 

Les variables metiers sont : 

VI : Cout reel de la maintenance 
25 V2 : Nombre cumuI6 de pannes en marche 

Chaque variable est defmie par les paramdtres (nomm^s « dimensions » dans un 
systeme OLAP), avec ici six dimensions Dl a D6 qui sont definies comme suit : 



30 Dl : nature du materiel 
D2 : marque du materiel 
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D3 : utilisabilite, c'est-A^ire la vie restante du materiel (en %) de sa vie 
nominale ou pr6conis^ 

D4 : type de maintenance (ici, s'agit-il d'un remplacement, d'une renovation ou 
d'un simple test de fonctionnement ?) 
5 D5 : fi-'6quence de maintenance requise 

D6 : rapport (en %) entre coQt de maintenance rfel et cout de maintenance estim6 

b) Prisentation des risultats 



L 0 Un syst&ne d^cisionnel connu peut foumir par exeraple un tableau crois6 

dynamique de la fa9on suivante : 

i) filtrage (preselection) de d^art. effectuee indifFeremment sur variables ou sur 
dimensions : 

nature du materiel (Dl): tous 

5 vie restante (D3): 

type de maintenance (D4) : tous 

frequence de maintenance (D5) : tous 

nombre de pannes en utilisation (V2) : tous 

0 ii) elaboration et presentation des donnees 

Une telle preselection etant faite (dans le present exemple. aucune). le 
systeme peut alors eiaborer A partir d'agregats pre-calcules de coOts de mainten^ce 
un tableau croise dynamique exprimant par exemple le coflt de maintenance en 
fonction des dimensions restantes. k savoir ici d'une part de la marque du materiel 
(dimension D2) et d'autre part du rapport entre coflt reel et cout estime (dimension 
D6X comme indiqu^ ci-dessous : 



Somme des coQts reds 
marque 


coflt reel/est 
80 


100 


120 


Total 


AAA 

BBB 
CCC 


94615 
69277 
113744 


320108 
378746 
151948 


399719 
877090 
221901 


814442 
1325113 
487593 


Total 


277636 


850802 


1498710 


2627148 
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(On notera ici que les chifTres de cout de maintenance pr^sentes ci-dessus ne 
correspondent pas aux donn^es illustr^es sur la figure 1, puisque celles-ci ne 
5 constituent qu*une partie de l*ensemble des donnees.) 

Un tel tableau peut bien entendu, de fa9on conventionnelle, etre 
accompagne de son graphique associ^, tel qu'un histogramme (voir figure 2 des 
dessins). 

La modification des valeurs d*une ou de plusieurs dimensions affichees 
10 permet de visualiser successivement les difFerents espaces de representation de 

rinformation. La variable « cout r6el » 6tant toujours presentee dans les cellules 

centrales du tableau. 

L'analyse du « cout reel » est realisee par croisement 2 a 2 des valeurs des 

dimensions (ici D2 et D6). 
15 Toujours dans le meme exemple, si Ton se refere a la formule (1) indiqu6e 

plus haut permettant de d&erminer le nombre de possibilites de presentation d'une 

variable, on a ici 6 dimensions. En supposant que le nombre moyen de modalit^s 

dans les dimensions est egal a 5, il existe alors 375 manieres possibles de presenter la 

variable « cout reel ». 

20 

c) Apports pratiques de la prisente invention 

Par rapport k cet existant, un objectif concret de la prisente invention est de 
permettre de presenter les ^l^ments caract^stiques d'une variable donn^e en 
25 rdduisant le nombre n^ssaire de visualisations pour efifectuer une analyse 
pertinente, et Ton va maintenant donner trois exemples de mise en oeuvre de 
rinvention permettant d'atteindre un tel objectif : 

- Exen^Ie 1 : Transformation d'une variable en dimension 

- Exemple 2 : Marquage des donnees en fonction d'une dimension 

30 *• Exemple 3 : Classification des donndes avec ou sans marquage des classes 

cl) Exemple I : Transformation d*une variable en dimension 



13 
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L'objectif de cet exemple est de montrer comment rinvention peut 
transfonner une variable en dimension, puis analyser Timpact de cette dimension sur 
la variable metier courante. La transformation n6cessite de discretiser les valeurs de 
la variable sous la forme d'int«valles de valeurs. 

Ce processus de discretisation peut etre fait de phisieurs mani^es connues. 
soit manuellement. soit par des m^thodes de d^upe optimale comme la methode di 
Fisher simple (sans contrainte) ou gineralis6e (sous contraintes). II est rtalis6 sur 
rhistogramme des valeurs de la variable consideree. 

Chaque intervalle obtenu par ce processus de Fisher correspondra i une 
valeur d'une nouvelle dimension F* a visualiser dans I'OLAP. Une valeur 
suppl6mentaire sera rajout^e i la dimension F* qui correspondra h la somme des 
intm^Ues. 

La relation des valeurs de F* avec les donnees de I'OLAP est effectu6e soit 
par application d'un filtre sur la variable qui a ^te discr6tis6e. soit par un recalcul des 
valeurs des agr^gats du tableau crois^ (processus dit de « ROLLUP »). Le filtre ou le 
calcul des agr^gats est donne par les homes des inteivalles extraites par la methode 
de discretisation. 

En conservant I'exemple phis haut, on peut avoir par exemple le tableau 
20 croise suivant : 

i) filtiage (ici aucun) 

nature du mat&iel (Dl) : tous 

marque du materiel (D2) : tous 

25 vierestante(D3): tous 

type de maintenance (D4) : tous 

frequence de maintenance (D5) : tous 

nombre de pannes en utilisation (V2) : tous 



15 



30 



ii) elaboration et presentation d'un tableau exprimant. en fonction de la dimension 
D6 (coflt reel/coflt estime). de premiere part le somme des coflts rtels. de deuxidme 
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part la somme des pannes en utilisation, et de troisi^me part le nombre total des 
materials concem^s (« effectif total »). 







Cout rfel/coflt estime 


80 100 120 


Total 


Somme cout r6el 

Nombre de pannes en utilisation 

ESectif total 


277 636 850 802 1 498 710 
11 99 173 
116 353 434 


2 627 148 
283 
903 



On peut alors ex^cuter un processus de Fisher sur les agregats de couts reels 
figurant dans ce tableau, c*est-a-dire une separation de Tintervalle des couts reels en 
plusieurs sous-intervalles, par traitement sur Thistogramme des valeurs rencontrees. 
Dans le present exemple, on ^labore trois sous-intervalles correspondant 
1 0 respectivement k trois categories de couts individuels de maintenance : « faible », 
« moyen » et « fort ». 

Un nouveau tableau croise, ici k trois dimensions, peut alors Stre 61abor£ de 
la fa^n suivante : 

15 i) pr6s61ection : comme ci-dessus 

ii) Elaboration et presentation du tableau 

On pr6sente ici, en fonction de deux dimensions principales, k savoir le 

rapport coQt r^el/cout estimE (D6) et une nouvelle dimension (F* dans les 

explications qui precedent, et que Ton appellera D7 dans la suite), d'une part les 
20 agr^ats de coOts F6els (variable VI), de seconde part les agregats de nombres de 

pannes en utilisation (variable V2), et de troisidme part les effectifs concern^ : 



15 
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CoQt unitaire « Fisheris6 » CDTt 


cout 
r6el/est 


Donnees 


Faible Moyen Fort 


Total 


80 


Somme cout r6el (VI) 
Somme nombre de 
pannes en utilisation (V2) 
oomme eitectit 


138 052 21 584 118 000 
10 1 0 

98 4 14 


277 636 
11 

116 






100 


Somme coOt r^el (VI) 
Somme nombre de 
pannes en utilisation 
Somme efFectif 


201 680 649 122 0 
50 49 0 

128 225 0 


99 

353 






120 


Somme coQt reel 
Somme nombre de 
Cannes en utilisation 
Somme effectif 


319 836 808 938 369 936 
100 69 4 

182 228 24 


1 498 710 
173 

434 






Total Somme cout reel 


659 568 1 479 644 487 936 


2 627 148 


Total Somme nombre de pamies en 
utilisation 


160 119 4 


283 


Total Somme efFectif 


408 457 38 


903 



Ainsi le processus de discr6tisation par la methode de Fisher, appliqu6 aux 
donn6es d'entrepdt de donnas sans intervenir au niveau du serveur, mais seulement 
dans respace de travail conceme, permet 4 Tutilisateur, sans modifier nullement 
5 radministration et la gestion de la base de donnees, d'avoir une vue diff^rente - et 
surtout phis fine - de la manidre dent se rdpartissent les coflts de maintenance. 

c2) Exen^h 2 : Marquage des donn&es enfonction de la variable fisherisie 



10 
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L'objectif est ici de caract6riser les donntes en fonction du r6sultat du 
processus de Fisher appliqu6 k la variable « coat unitaire » des operations de 
maintenance (comme d^crit dans I'Exemple 1), afin de caract^riser, selon un ou 
plusieurs groupes de criteres, les populations d'individus concemds. 

Cette caract^risation est r^is6e ici par une methode de calcul muitivari6e, 
appei6e m6thode des marquages, qui permet de trouver les param^es discriminants. 

Pour plus de details quant i ce type de processus, connu en soi, on se 
reftrera par exemple k I'article de M. GETTLER-SUMMA, 1998 : Approche MGS: 
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Marquage et generalisation symbolique pour de nouvelles aides a I'interpretation en 
analyse de donntes - Cahier du CEREMADE (UMR 7534) N** 9830. Le point c21) 
plus loin traite plus en detail de ce processus de marquage. 

Un tel processus, appliqu6 par exemple k la recherche de ce qui caract6rise 
5 des matenels dont le cofit de maintenance unitaire peut etre qualifie de « fort », 
« moyen » ou « faible », va aboutir par exemple a des r6sultats du type : 
- un cout unitaire fort est caract6rise k 92% par : 

* une population PI constitute par les echangeurs de marque BBB 
(marquage No. 1); 

10 * une population P2 constitute par les tchangeurs ayant une vie restante 

inftrieure 4 75 % (marquage No. 2). 

A partir d*un td rtsultat, on peut ^laborer un nouveau tableau crolst : 

i) filtrage 

15 Le filtrage est ici double. On a en premier lieu : 



nature du materiel (Dl) : tchangeur 

marque du materiel (D2): BBB 

vie restante (D3) : tous 

20 type de maintenance (D4) : tous 

frequence de maintenance (D5) : tous 

nombre de pamies en utilisation (V2) : tous 

coflt de maintenance unitaire (D7) : fort 

25 et en second lieu : 

nature du materiel (Dl) : echangeur 

marque du materiel (D2): tous 

vie restante (D3) : < 75 % 

30 type de maintenance (D4) : tous 

frequence de maintenance (D5) : tous 
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nombre de pannes en utilisation (V2) : tous 
coflt de maintenance unitaire (D7) : fort 

ii) Elaboration et presentation des donnas 



On peut maintenant fabriquer le tableau suivant : 





cout reel/estime 


Marquage 


Donn6es 


80 120 


Total 


Echangeurs de marque 
BBB 


Somme cout reel 

Somme efFectif 

Somme nombre de pannes en 

utilisation 


36224 369936 
4 24 
0 4 


406160 
28 
4 


Echangeurs de vie 
restante < 75 


Somme coQt reel 

Somme efFectif 

Somme nombre de pannes en 

utilisation 


81776 
10 
0 


81776 
10 
0 


Total Somme cout reel 




118000 369936 


487936 


Total Somme efFectif 




14 24 


38 


Total Somme nombre de pannes en utilisation 


0 4 


4 



Le tableau ci-dessus permet d'une part d'analyser la repartition du surcoQt 
de maintenance, mais aussi de caract6riser et dMdentifier les individus provoquant ce 
surcout. 

(On observe ici qu'aucun des materiels filtr6s ne possMe de rapport cout 
r6el/coQt estime Egal a 100). 

On va indiquer oi-dessous plus en detail d'une part ce en quoi consiste le 
processus de marquage, et comment il peut 6tre appliquE a d'autres donn&s que les 
donnees « Fisheris6es », et d'autre part comment les marquages peuvent Stre pilotes 
selon un aspect de la pr&ente invention. 

c2 1) Processus de marquage et giniralisation 

Selon les enseignements de Particle de M. GETTLER-SUMMA indique 
plus haut, il est possible d'engendrer des marquages sur les donnees par I'analyse 




d^taillee de celles-ci de mani^re i trouver le plus petit sous-ensemble de descripteurs 
qui caracterisent la population ^tudi^e, et de presenter les r6sultats sous la forme de 
requetes OLAP. 

Ainsi, supposons un jeu de donnees organist sous la forme de N groupes. 
5 L'objectif est de pouvoir identifier dans chacun des groupes, les descripteurs qui 
caract6risent les sous populations de telle manidre qu*il y ait : 

- unicit6 dans les descriptions, ce qui revient a trouver les entires qui d^crivent le 
groupe et uniquement celui Ik. ; 

- recouvrement maximal de chaque groupe de donn6es, ce qui revient k trouver les 
1 0 requetes qui concement le plus grands nombre d'individus ; et enfin 

- erreur de recouvrement la plus faible, ce qui revient a rechercher des marquages 
qualitativement satisfaisants, c'est-i-dire recouvrant les individus et uniquement 
ceux-ci. 

Dans Texemple precedent, consid^rons la dimension D6 « cout r^el/cout 
1 5 estim6 ». EUe d^finit intrins^uement trois groupes de population, a savoir : 

- les materiels ayant un cout r^el de maintenance de 120 %, soit 20% de plus que le 
cout estim6 ou pr^vu ; 

- les materiels de coQt riel £gal au coQt estim6 ; 

- les materiels ayant un cout de maintenance plus faible (-20%) que ie coQt estim^. 
20 L'objectif est de caract^riser les individus de chaque dasse et leurs 

descripteurs associ6s. 

Ceci est illustr^ sur la figure 3 des dessins annexes, qui montre, dans le 
present exemple^ que la population d'individus dont la dimension D6 est ^gale a 80 
% peut, par le processus pr^cite, Stre subdivis^ en trois classes ou sous-populations, k 
25 savoir: 

- sous-population PT constituee par les clapets de marque CCC ; 

- sous-population P2' constitute par les 6changeurs, dont le type de maintenance est 
« remplacement » et dont la frequence de maintenance est le semestre ; 

- sous-population P3' constituee par les appareils de mesure, dont le type de 
30 maintenance est « test » et dont la frequence de maintenance est mensuelle. 
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(On observera ici que, contrairement h I'Exemple 2 plus haut, les 
populations sont disjointes. tout en couvrant Tessentiel de la population de d^art). 

On comprend ainsi que chaque dasse est definie par les individus qui la 
composent (les petits rectangles sur la figure 3). Le marquage de chacun de ces 
individus dans I'espace de travail de I'utilisateur. permet de trouver les descriptions 
(critdres ou filtres) des sous-populations de donn6es ayant une trds forte 
homogen^ite. 

Avantageusement, dans I'interfece utilisateur, ces raaiquages s'expriment 
simplement par de courtes phrases qui correspondent etroitement aux valeurs prises 
par les descripteurs des donn6es, et seulement a celles-ci. 

Les marquages sont construits en tenant compte de Torganisation des 
donnees (structure hierarchique, contraintes particulieres sur les descripteurs conune 
les relations pdre-fils, identification des noeuds hi^rarchiques les plus pertinents, 
etc.), I'objectif etant notamment de rechercher, si une bonne homog6n6it6 est 
rencontr^e k un niveau donne de la hierarchic, de remonter d'un niveau dans celle-ci 
pour dAerminer si rhomog^neit^ k ce nouveau niveau reste satisfaisante. 

Les marquages obtenus sont en fait des requetes de filtrage sur les donnees 
initiales, conserv6es en base de donnees et reutilisables en phase de pilotage 
(filtrage). Ds paivent Stre engendris soit pour identifier les individus soit selon une 
dunension existante, soit, dans Texemple d6crit ci-dessus, selon une dimension 
construite k cet efifet notamment par un processus de Fisher ou par une classification 
automatique. 

c22) Pilotage par Marquage 



Le pilotage des donnees consiste k projeter le resultat des marquees sur une 
variable pour en mesurer I'impact. Dans le present exemple, les marquages ont 616 
construit sur les 616ments signaldtiques des pannes, puis les r^suhats ont 6t6 projet^es 
sur la variable VI correspondant au coQt rtel de maintenance. 

Les r^sultats peuvent ainsi 6tre synthetises par des graphiques du genre de 
ceux illustr^s sur les figures 4a et 4b des dessins. Ainsi la figure 4a illustre une 



• 
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representation pr^efinie au niveau du serveur, qui consiste a presenter les sommes 
des couts individuels de maintenance selon la dimension D6 (rapport cout reel/cout 
estime). 

A partir de cette representation (ou d'un tableau unidimensionnel associe), 
5 la pr6sente invention permet d'elaborer un graphique tel quMllustre sur la figure 4b, 
pour chaque barre de Tliistogramme de la figure 4a (en l*espece pour le cas ou le 
param^tre selon la dimension D6 est 120%). 

(On notera que dans cet exemple le processus de marquage a permis de 
trouver que c'etaient soit les materiels de type « appareil de mesure » dont le type de 
10 maintenance est « remplacement », soit les materiels de type « oscilloscope » dont la 
marque est « BBB » et dont le type de maintenance est « test », qui 6taient 
repr6sentatifs de cette cat6gorie particuliere d'individus. 

Selon une caract^ristique avantageuse de la presente invention, on peut 
pr^voir, via I'administrateur du serveur, d'^tendre la base de donnees contenue dans 
15 le serveur pour y inclure des param^tres de marquage. 

Ces marquages stock^es dans la base de donnees peuvent ainsi €tre re- 
utilises pour en suivre leur revolution, comme le montrent en detail les figures 5a et 
Sb des dessins. 

Ainsi la figure Sa est une representation prddefinie de la repartition des 
20 couts de maintenance, par un graphique bidimensionnel de type histogramme empiie, 
d'une part selon une dimension additionnelle D8 (temps, par exemple exprime en 
mois) qui dans cet exemple existe dans la base de donnees (abscisse), et d'autre part 
selon la dimension D6, ce graphique pouvant Stre foumi en standard par le serveur. 

Gr^ au processus de marquage precite, on peut maintenant realiser un 
25 graphique bidimensionnel tel que celui illustre sur la figure 5b (ici de type aires 
empiiees), avec une abscisse correspondant ici encore k la dimension D8, et une 
ordonnee correspondant k une nouvelle dimension D9 dont les parametres sont les 
marquages indiques ci-dessus. 

II devient ainsi possible de suivre revolution dans le temps des sous- 
30 populations ou classes qui, a Torigine, ont ete marquees comme representatives de la 
valeur du parametre en question (ici cout reel/cout estime = 120%). 
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II est intdressant d'observer ici que les individus r^siduels occupant la sous- 
population « RESTE » (zone sup6rieure dans les graphiques des figures 4b et 5b), 
appel6e aussi r^sidu, peuvent faire i tout moment Tobjet d'un marquage sp6cifique, 
marquage qui viendra completer les marquages existants. Par ailleure, une population 
identifi^e k un instant t, peut aussi faire Tobjet d'un marquage complet, 

c3) Exemple 3 : Classification des donnees 

Selon une autre possibilite de la presente invention, on peut igalement 
chercher k identifier le meilleur classement pour les donn6es en s'appuyant sur des 
techniques de classification automatique. 

Un premier objectif est de trouver la meilleure typologie de classification. 
Le r6sultat obtenu est alors un paititionnement optimal dans lequel tous les individus 
sont r6partis. Chaque individu de la population se trouve alors affecti a une partition 
et une seule. On notera ici que de nombreux outils d'analyse de donnees existant sur 
le marche foumissent ce type d'algorithmes. 

En reprenant Texemple precedent, on peut obtenir une partition optimale en 
3 classes designees par Classe 1, Classe 2 et Classe 3. Le tableau crois6 peut alors 
€tre modifi6 pour tenir compte de cette repartition : 

i) filtrage 



nature du materiel (Dl) : tous 

marque du materiel (D2) : tous 

vie restante (D3) tous 

type de maintenance (D4) : tous 

fi*6quence de maintenance (D5) : tous 

Fisher : tous 



ii) daboration et presentation des donn6es 
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On r&ilise ici un tableau dont une dimension est le rapport coQt r^el/cout 
estime (D6) et dont Tautre dimension est la classification obtenue. 





Classification automatique 


reel/estime 


Donn^es 


Classe 1 Ciasse 2 Classe 3 


Total 


80 


Sonune effectif 
Somme coQt_r6el 
Sonune Nb panne 


116 
277 636 
11 


116 
277 636 
11 


100 


Somme effectif 
Somme coiit_r6el 
Somme Nb panne 


353 
850 802 

99 


353 
850 802 

99 


120 


Somme effectif 
Somme cout_r6el 
Somme Nombre 
de pannes 


129 50 360 
2 026 836 133 626 995 148 
4 48 121 


539 
3 155 610 
173 



Une nouvelle dimension F* (notee ici DIO) est ainsi constniite avec le 
r^sultat de la classification automatique. 

Ce resultat peut etre 6tendu en identifiant par la technique des marquages 
10 des types d'individus associ6s a chacune des classes. Les marquages, organises par 
classe, sont rajoutes sur la dimension DIO, qui devient alors une dimension 
hierarchique : 

On obtient la nouvelle dimension suivante : 

15 Classe 1 : couverture des marquages de 77% 

ler Marquage classe 1 : echangeur 
2eme Marquage classe 1 : clapet, marque CCC 
3eme Marquage classe 1 : materiel, neuf, marque CCC, test^ 
(on entend ici par « neuf » un paramdtre vie restante de 100%) 

20 

Classe 2 : couverture des marquages de 0% 
n6ant 
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Classe 3 : couverture des marquages de 82 % 

ler Marquage classe 3 : materiel, marque AAA, test6 

2eme Marquage classe 3 : materiel, marque BBB, maintenu par mois 

ou par trimestre ou renov^ 

L'exen^)le ci-dessus montre que, lorsque les marquages sont g^ner^ sur un 
sous-ensemble des descripteurs pris en compte dans la classification, il se peut qu'il 
n'y ait aucun marquage caracteristique pour una classe donnee (ici pour la Classe 2). 

Ici encore, chaque marquage d&rit exclusivement les individus de sa classe. 

Comme pour les autres dimensions, les noeuds « Classe » sont les agr6gats 
de la dimension F* sur lesquels est appliquie une fonction f qui d^finit la variable 
metier courante de rutilisatwr. 

Dans ce cas, la dimension F* est hi^rarchique, et on lui associe k cet eflFet 
une relation qui relie les elements de la hierarchie entre eux. 

Chaque marquage de classe est reli6 aux donn6es du systeme d6cisionnel en 
appliquant aux donnees la requete de filtrage correspondant au r^sultat du processus 
de marquage. 

On obtient ainsi, comme indique plus haut, la nouvelle variable V par 
application de f sur les dimensions d6crivant V et F* : 

V' = f(Dl,D2, ...,DN,F*) 

et ici encore, le calcul de V par la fonction f est realist par recalcul des agr6gats 
interm6diaires, k I'aide d*un processus de type « ROLLUP ». 

Bien entendu, la presente invention n'est nuUement limitee aux exemples ci- 
dessus, mais rhomme du metier saura y apporter de nombreuses variantes ou 
modifications. 
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REVENDICATIONS 



Systdme de traitement de donnees, cx>mprenant : 



- un serveur contenant dans une m^moire un jeu de donnees individuelles 
organis6es sous forme d'au moins une variable (Vl) a N dimensions (D1-D6), 
chaque donn6e individuelle contenant au moins une variable individuelle en 
association avec des valeurs pr6d6finies de paramdtres selon les N dimensions, et 

- au moins un poste client communiquant avec le serveur via un espace de 
travail associ6 au serv^eur, 

le serveur 6tant apte a placer dans ledit espace de travail des donnees constitutes par 
des combinaisons pred6finies (V = f(Dl, D6)) desdites variables individuelles a 
partir d'lm filtrage sur lesdits parametres, r^s^ selon au moins une dimension 
choisie par un utilisateur parmi les N dimensions, 

systSme caract6ris6 en ce qu'il comprend ^galement, a Texterieur du serveur, des 
moyens pour constituer temporairement des param^es additionnels (F*) k partir 
d*un traitement d'analyse sur des combinaisons choisies de variables plac^es dans 
r espace de travail, et des moyens pour ^laborer dans ledit espace de travail de 
nouvelles combinaisons desdites variables (V' = f (Dl, D2, DN, F*)) a partir 
d'un nouveau filtrage mettant en jeu lesdits parametres additionnels. 

2. Systdme selon la revendication 1, caracteris6 en ce que les moyens 
pour constituer des param&tres additionnels comprennent des moyens pour ^ablir 
des categories selon un processus de categorisation sur lesdites combinaisons de 
variables, lesdits parametres additionnels etant constitu^s par lesdites categories. 

3. Systeme selon l*une des revendications 1 et 2, caracterise en ce que 
les moyens pour constituer des parametres additionnels comprennent des moyens 
pour etablir des categories selon un processus de marquage sur lesdites combinaisons 
de variables, lesdits parametres additionnels etant constitues par des combinaisons de 
parametres existants k partir desquelles un filtrage sur les donnees est efFectue. 
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4. Systime selon I'une des revendications 1 i 4, caract6ris6 en ce que 
les moyens pour ^laborer de aouvelles combinaisons (V* = f (Dl, D2, DN, F*)) 
desdites variables comprennent des moyens pour pre-calculer et stocker lesdites 
nouvelles combinaisons. 

5. Systdme selon Tune des revendications 1 a 3, caracteiis6 en ce que 
les moyens pour ^laborer de nouvelles combinaisons desdites variables comprennent 
des moyens pour calculer dynamiquement lesdites nouvelles combinaisons (V* = f 
(Dl, D2, DN, F*)) a partir d*un filtrage applique au serveur et mettant en jai 
lesdits parametres additionnels. 

6. Utilisation d'un systeme selon Tune des revendications 1 a 5 dans 
un systeme d^cisionnel par traitement analytique en ligne (OLAP). 

7. Proced6 de traitement de donnees et de visualisation desdites 
donn6es sur un poste client i partir d'un serveur contenant dans une memoire un jeu 
de donn6es individudles organises sous forme d'au moins une variable (VI, V2) a 
N dimensions, chaque donnte individuelle contenant au moins une variable 
individuelle en association avec des valeurs pr6d6finies de parametres selon les N 
dimensions (D1-D6), caract6ris6 en ce qu'il comprend les etapes consistant k : 

- foumir au poste client, via un espace de travail associ6 au serveur, des 
donn6es constitutes par des combinaisons pred6finies (V = f (Dl, DN)) desdites 
variables individuelles a partir d'un filtrage sur lesdits parametres, r6alis6 selon au 
moins une dimension choisie par un utilisateur parmi les N dimensions, 

- dans I'espace de travail, constituer temporairement des paramdtres 
additionnels k partir d'un traitement d'analyse efFectu6 sur des combinaisons choisies 
desdites variables, et 

- dans Tespace de travail, elaborer de nouvelles combinaisons (V' = f (Dl, 
D2, DN, F*)) desdites variables k partir d'un nouveau filtrage mettant en jeu 
lesdits parametres additionnels. 



• 
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8. Proc6d6 selon la revendication 7, caracteris^ en ce que ledit 
traitement d*analyse est un traitement de categorisation sur iesdites combinaisons de 
variables, lesdits paramdtres additionnels etant constitu6s par Iesdites categories. 

9. Proc6de selon Tune des revendicatioos 7 et 8, caract6ris6 en ce que 
ledit traitement d'analyse comprend un processus de marquage, lesdits parametres 
additionnels 6tant constitues par des combinaisons de parametres existants a partir 
desquelles un filtrage sur les donnees du serveur est effectue. 

10. Proced6 selon Tune des revendications 7 a 9, caracterise en ce que 
r6tape d'elaboration de nouvelles combinaisons desdites variables comprend un pre- 
calcul et im stockage desdites combinaisons dans I'espace de trav^. 

1 1 . Proc6d6 selon Tune des revendications 7 4 10, caract6rise en ce que 
Tetape d'elaboration de nouvelles combinaisons desdites variables comprend un 
calcul dynamique desdites combinaisons 4 partir d'un filtrage sur les donn6es du 
serveur mettant en jeu lesdits parametres additionnels. 



12. Proc6de selon Tune des revendications 7 4 11, caracterisi en ce que 
Iesdites donnees appartiennent a un systfeme d6cisionnel par traitement analytique en 
ligne. 



• 
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